Etude comparative de stratégies de sélection de prédicteurs pour l'attribution d'auteur

نویسنده

  • Jacques Savoy
چکیده

The authorship attribution problem can be viewed as a categorization problem. To determine the most effective features to discriminate between different writers (or categories), we have evaluated seven feature selection functions (e.g., pointwise mutual information, information gain, odds ratio, !, or correlation coefficient). We have also considered two selection functions proposed in the context of authorship attribution. To compare these approaches, we have selected a newspaper corpus (Glasgow Herald) composed of 5,408 articles written by twenty columnists. Using the KLD (Zhao & Zobel, 2007) and the Delta (Burrows, 2002) attribution scheme, we found that some simple selection functions tend to produce results comparable to more complex ones. MOTS-CLƒS : SŽlection de prŽdicteurs, attribution d'auteur, catŽgorisation de textes.

برای دانلود متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید

ثبت نام

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

منابع مشابه

Journal de la Société Française de Statistique Comparison of sliced inverse regression approaches for underdetermined cases

Among methods to analyze high-dimensional data, the sliced inverse regression (SIR) is of particular interest for non-linear relations between the dependent variable and some indices of the covariate. When the dimension of the covariate is greater than the number of observations, classical versions of SIR cannot be applied. Various upgrades were then proposed to tackle this issue such as RSIR a...

متن کامل

Utilisation des réseaux de neurones temporels pour le pronostic et la surveillance dynamique. Etude comparative de trois réseaux de neurones récurrents

RÉSUMÉ. L’objet de cet article consiste en un état de l’art des réseaux de neurones temporels et d’une comparaison de trois réseaux de neurones récurrents les plus représentatifs pour des applications de surveillance dynamique et de pronostic. Les critères de sélection de ces réseaux se situent à deux niveaux : temporel et architectural. Suite à l’application de ces critères, trois réseaux récu...

متن کامل

ذخیره در منابع من


  با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید

برای دانلود متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید

ثبت نام

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

عنوان ژورنال:

دوره   شماره 

صفحات  -

تاریخ انتشار 2012